Ranking estadísticamente fiable con LLM usando inferencia potenciada por predicción
PRECISE combina anotaciones humanas con juicios de LLM para evaluar rankings. Reduce error estándar un 21% y usa solo 100 etiquetas para identificar la mejor variante. +407 bps en ventas.